One-shot segmentation of brain tissues is typically a dual-model iterative learning: a registration model (reg-model) warps a carefully-labeled atlas onto unlabeled images to initialize their pseudo masks for training a segmentation model (seg-model); the seg-model revises the pseudo masks to enhance the reg-model for a better warping in the next iteration. However, there is a key weakness in such dual-model iteration that the spatial misalignment inevitably caused by the reg-model could misguide the seg-model, which makes it converge on an inferior segmentation performance eventually. In this paper, we propose a novel image-aligned style transformation to reinforce the dual-model iterative learning for robust one-shot segmentation of brain tissues. Specifically, we first utilize the reg-model to warp the atlas onto an unlabeled image, and then employ the Fourier-based amplitude exchange with perturbation to transplant the style of the unlabeled image into the aligned atlas. This allows the subsequent seg-model to learn on the aligned and style-transferred copies of the atlas instead of unlabeled images, which naturally guarantees the correct spatial correspondence of an image-mask training pair, without sacrificing the diversity of intensity patterns carried by the unlabeled images. Furthermore, we introduce a feature-aware content consistency in addition to the image-level similarity to constrain the reg-model for a promising initialization, which avoids the collapse of image-aligned style transformation in the first iteration. Experimental results on two public datasets demonstrate 1) a competitive segmentation performance of our method compared to the fully-supervised method, and 2) a superior performance over other state-of-the-art with an increase of average Dice by up to 4.67%. The source code is available at: https://github.com/JinxLv/One-shot-segmentation-via-IST.
translated by 谷歌翻译
在多种方案中,多幕科建议专门为用户检索相关项目,这在工业推荐系统中无处不在。这些方案享有用户和项目中的一部分重叠,而不同方案的分布则不同。多阶段建模的关键点是有效地最大程度地利用全幕纳罗来信息,并在多种情况下为用户和项目生成适应性表示。我们总结了三个实用挑战,这些挑战无法很好地解决多幕科建模:(1)在多种情况下缺乏细粒度和脱钩的信息传输控制。 (2)整个空间样品的开发不足。 (3)项目的多幕科代表性分解问题。在本文中,我们提出了一种情景自适应和自我监督(SASS)模型,以解决上述三个挑战。具体而言,我们使用场景自适应门单元设计了多层场景自适应转移(ML-SAT)模块,以相当细粒度且脱钩的方式选择并融合从整个场景到单个场景的有效传输信息。为了充分利用整个空间样品的功能,引入了包括预训练和微调在内的两阶段训练过程。预训练阶段是基于场景监督的对比学习任务,并从标记和未标记的数据空间中绘制的培训样本。该模型是在用户端和项目方面对称创建的,因此我们可以在不同情况下获得项目的区分表示。公共和工业数据集的广泛实验结果证明了SASS模型比最先进的方法的优越性。该模型还可以在在线A/B测试中平均每位用户的观看时间提高8.0%以上。
translated by 谷歌翻译
智力特性在经济发展中越来越重要。为了通过IP评估中的传统方法来解决疼痛点,我们正在以机器学习为核心开发一项新技术。我们已经建立了一个在线平台,并将在大湾地区扩展我们的业务。
translated by 谷歌翻译
组同步是指从嘈杂的成对测量中估计组元素的集合。这种非核解问题来自包括计算机视觉,机器人和冷冻电子显微镜的许多科学领域的大量关注。在本文中,我们专注于在不完全测量下的一般添加剂噪声模型的正交组同步问题,这比通常考虑的完整测量设置更多。从最优条件的透视提供正交组同步问题的特征以及投影梯度上升方法的固定点,其也称为广义功率方法(GPM)。值得注意的是,即使没有生成模型,这些结果仍然存在。同时,我们导出了对正交组同步问题的本地错误绑定属性,这对于不同算法的融合速率分析非常有用,并且可以是独立的兴趣。最后,我们在基于已建立的本地误差绑定属性的一般添加剂噪声模型下将GPM的线性收敛结果证明了GPM到全局最大化器。我们的理论会聚结果在若干确定性条件下持有,其可以覆盖具有对抗性噪声的某些情况,并且作为我们专门化以确定ERD \“OS-R”enyi测量图和高斯噪声的示例。
translated by 谷歌翻译
脑MRI图像的登记需要解决变形领域,这对于对准复杂的脑组织,例如皮质核等,这是极其困难的现有努力,该努力在具有微小运动的中间子场中分解目标变形领域,即逐步登记阶段或较低的分辨率,即全尺寸变形场的粗析估计。在本文中,我们认为这些努力不是相互排斥的,并为普通和粗良好的方式同时提出统一的脑MRI登记统一框架。具体地,在双编码器U-Net上构建,定制移动的MRI对被编码和解码成从粗略到精细的多尺度变形子字段。每个解码块包含两个提出的新颖模块:i)在变形场积分(DFI)中,计算单个集成子字段,翘曲,其等同于来自所有先前解码块的子字段逐渐翘曲,并且II)非刚性特征融合(NFF),固定移动对的特征由DFI集成子场对齐,然后融合以预测更精细的子场。利用DFI和NFF,目标变形字段被修改为多尺度子场,其中较粗糙的字段缓解了更精细的一个和更精细的字段的估计,以便构成以前粗糙的较粗糙的那些错位。私人和公共数据集的广泛和全面的实验结果展示了脑MRI图像的优越的登记性能,仅限于逐步登记和粗略估计,平均骰子的粗略估计数量在最多8%上升。
translated by 谷歌翻译
代理商学习广泛适用和通用策略具有重要意义,可以实现包括图像和文本描述在内的各种目标。考虑到这类感知的目标,深度加强学习研究的前沿是学习一个没有手工制作奖励的目标条件政策。要了解这种政策,最近的作品通常会像奖励到明确的嵌入空间中的给定目标的非参数距离。从不同的观点来看,我们提出了一种新的无监督学习方法,名为目标条件政策,具有内在动机(GPIM),共同学习抽象级别政策和目标条件的政策。摘要级别策略在潜在变量上被调节,以优化鉴别器,并发现进一步的不同状态,进一步呈现为目标条件策略的感知特定目标。学习鉴别者作为目标条件策略的内在奖励功能,以模仿抽象级别政策引起的轨迹。各种机器人任务的实验证明了我们所提出的GPIM方法的有效性和效率,其基本上优于现有技术。
translated by 谷歌翻译
With the ever-growing model size and the limited availability of labeled training data, transfer learning has become an increasingly popular approach in many science and engineering domains. For classification problems, this work delves into the mystery of transfer learning through an intriguing phenomenon termed neural collapse (NC), where the last-layer features and classifiers of learned deep networks satisfy: (i) the within-class variability of the features collapses to zero, and (ii) the between-class feature means are maximally and equally separated. Through the lens of NC, our findings for transfer learning are the following: (i) when pre-training models, preventing intra-class variability collapse (to a certain extent) better preserves the intrinsic structures of the input data, so that it leads to better model transferability; (ii) when fine-tuning models on downstream tasks, obtaining features with more NC on downstream data results in better test accuracy on the given task. The above results not only demystify many widely used heuristics in model pre-training (e.g., data augmentation, projection head, self-supervised learning), but also leads to more efficient and principled fine-tuning method on downstream tasks that we demonstrate through extensive experimental results.
translated by 谷歌翻译
在本文中,我们研究了从许多嘈杂的随机线性测量值中恢复低级别基质的问题。我们考虑以下设置的设置,即基地矩阵的等级是未知的,并使用矩阵变量的过度指定的分组表示,其中全局最佳解决方案过拟合,并且与基础基础真相不符。然后,我们使用梯度下降和小的随机初始化解决了相关的非凸问题。我们表明,只要测量运算符能够满足受限的等轴测特性(RIP),其等级参数缩放具有地面真相矩阵等级,而不是使用过度指定的矩阵变量进行缩放,那么梯度下降迭代就会在特定的轨迹上朝向地面。 - 正确矩阵并在适当停止时获得了几乎信息理论上的最佳恢复。然后,我们提出了一种基于共同持有方法的有效的早期停止策略,并表明它可以检测到几乎最佳的估计量。此外,实验表明,所提出的验证方法也可以有效地用于图像恢复,并具有深层图像先验,从而使图像过度参与了深层网络。
translated by 谷歌翻译
迄今为止,迄今为止,众所周知,对广泛的互补临床相关任务进行了全面比较了医学图像登记方法。这限制了采用研究进展,以防止竞争方法的公平基准。在过去五年内已经探讨了许多新的学习方法,但优化,建筑或度量战略的问题非常适合仍然是开放的。 Learn2reg涵盖了广泛的解剖学:脑,腹部和胸部,方式:超声波,CT,MRI,群体:患者内部和患者内部和监督水平。我们为3D注册的培训和验证建立了较低的入境障碍,这帮助我们从20多个独特的团队中汇编了65多个单独的方法提交的结果。我们的互补度量集,包括稳健性,准确性,合理性和速度,使得能够独特地位了解当前的医学图像登记现状。进一步分析监督问题的转移性,偏见和重要性,主要是基于深度学习的方法的优越性,并将新的研究方向开放到利用GPU加速的常规优化的混合方法。
translated by 谷歌翻译
In this paper, we propose a robust 3D detector, named Cross Modal Transformer (CMT), for end-to-end 3D multi-modal detection. Without explicit view transformation, CMT takes the image and point clouds tokens as inputs and directly outputs accurate 3D bounding boxes. The spatial alignment of multi-modal tokens is performed implicitly, by encoding the 3D points into multi-modal features. The core design of CMT is quite simple while its performance is impressive. CMT obtains 73.0% NDS on nuScenes benchmark. Moreover, CMT has a strong robustness even if the LiDAR is missing. Code will be released at https://github.com/junjie18/CMT.
translated by 谷歌翻译